A Tríade das Arquiteturas Transformer
A evolução dos Modelos de Linguagem Gigantes é marcada por uma Mudança de Paradigma: transição de modelos específicos de tarefas para um "Pré-treinamento Unificado", onde uma única arquitetura se adapta a múltias necessidades de processamento de linguagem natural.
No cerne dessa mudança está o mecanismo de Auto-Atenção, que permite aos modelos avaliar a importância de palavras diferentes em uma sequência:
$$Attention(Q, K, V) = softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$
1. Apenas Codificador (BERT)
- Mecanismo:Modelagem de Linguagem com Máscara (MLM).
- Comportamento:Contexto bidirecional; o modelo "vê" toda a frase de uma vez para prever palavras ocultas.
- Melhor Para:Entendimento de Linguagem Natural (NLU), análise de sentimento e reconhecimento de entidades nomeadas (NER).
2. Apenas Decodificador (GPT)
- Mecanismo:Modelagem Auto-Regressiva.
- Comportamento:Processamento da esquerda para a direita; prevê o próximo token com base estritamente no contexto anterior (máscara causal).
- Melhor Para:Geração de Linguagem Natural (NLG) e escrita criativa. É a base dos modernos modelos de linguagem gigantes como GPT-4 e Llama 3.
3. Codificador-Decodificador (T5)
- Mecanismo:Transformador de Transferência de Texto para Texto.
- Comportamento:Um codificador processa a string de entrada em uma representação densa, e um decodificador gera a string de destino.
- Melhor Para:Tradução, resumo e tarefas de paridade.
Insight Fundamental: O Domínio do Decodificador
A indústria se concentrou amplamente em apenas decodificadorarquiteturas devido às suas leis de escalonamento superiores e habilidades emergentes de raciocínio em cenários de zero-shot.
Impacto da Janela de Contexto na VRAM
Nos modelos apenas decodificadores, o Cache KVcresce linearmente com o comprimento da sequência. Uma janela de contexto de 100k exige significativamente mais VRAM do que uma janela de 8k, tornando a implantação local de modelos de longo contexto desafiadora sem quantização.
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>
Question 1
Why did the industry move from BERT-style encoders to GPT-style decoders for Large Language Models?
Question 2
Which architecture treats every NLP task as a "text-to-text" problem?
Challenge: Architectural Bottlenecks
Analyze deployment constraints based on architecture.
If you are building a model for real-time document summarization where the input is very long, explain why a Decoder-only model might be preferred over an Encoder-Decoder model in modern deployments.
Step 1
Identify the architectural bottleneck regarding context processing.
Solution:
Encoder-Decoders must process the entire long input through the encoder, then perform cross-attention in the decoder, which can be computationally heavy and complex to optimize for extremely long sequences. Decoder-only models process everything uniformly. With modern techniques like FlashAttention and KV Cache optimization, scaling the context window in a Decoder-only model is more streamlined and efficient for real-time generation.
Encoder-Decoders must process the entire long input through the encoder, then perform cross-attention in the decoder, which can be computationally heavy and complex to optimize for extremely long sequences. Decoder-only models process everything uniformly. With modern techniques like FlashAttention and KV Cache optimization, scaling the context window in a Decoder-only model is more streamlined and efficient for real-time generation.
Step 2
Justify the preference using Scaling Laws.
Solution:
Decoder-only models have demonstrated highly predictable performance improvements (Scaling Laws) when increasing parameters and training data. This massive scale unlocks "emergent abilities," allowing a single Decoder-only model to perform zero-shot summarization highly effectively without needing the task-specific fine-tuning often required by smaller Encoder-Decoder setups.
Decoder-only models have demonstrated highly predictable performance improvements (Scaling Laws) when increasing parameters and training data. This massive scale unlocks "emergent abilities," allowing a single Decoder-only model to perform zero-shot summarization highly effectively without needing the task-specific fine-tuning often required by smaller Encoder-Decoder setups.